Day23 Too_many_cooks MMDP

2023 iThome 鐵人賽

DAY 23

AI & Data

ㄟ唉廚房交響樂多智能的煮飯秀系列第 23 篇

15th鐵人賽

皮卡喵

2023-10-07 00:24:51

379 瀏覽

分享至

在這篇中，我們將會提到與以往MDP不一樣的地方，以及cooking_gym額外的一些設定

Multi-Agent MDPs with Sub-Task

MMDP跟過去MDP的差別在於有多個智能體參與決策過程，分別對於<n, S, A1-An, T, R, γ, T>做講解：

n 智能體數量
S state 狀態的描述，除了位置，物件的資訊，還有其他智能體的狀態資料
A 為聯合動作的集合 A1-An 每個agent的動作
T transition function 狀態轉移的機率分佈 T 為 T(s, a1…an s’) 可以看到除了自己的ai，還有其他an的動作
R reward 獎勵值
γ 為給 reward 的 discount factor
T 為 T=T1…Tn 圍過去sub-task的訊息
Sub-task 表示為 Merge(X,Y) 兩個動作所構成，像是切菜、拼裝…

Coordination Test Suite

在這個環境裡面，agent 都可以上下左右自由移動，同時每個物件都有各自己的物件導向屬性，例如蕃茄的status=被切開，我們可以根據跟環境的互動，改變其狀態與位置，但是如果遇到 agent 剛好將移動的方向都有障礙物或人卡住，agent 則會停留在原地，晚點的章節也會提到這種，卡住的 shuffle 的問題。